[レポート] Improve data lake workload performance with Apache Iceberg on Amazon S3 #AWSreInvent
はじめに
ラスベガスで開催されているre:Invent2024も2日目となりました。
Keynoteに合わせて人が増えるのか、会場もセッションもかなり人が増えた印象があります。
今朝のKeynoteでS3 Tableの発表があったのでIcebergについて情報収集したいと思っていたところ、ちょうどよいセッションがあったのでWalkupで飛び入り参加してきました。
セッション概要
Improve data lake workload performance with Apache Iceberg on Amazon S3
原文
It is critical for data-driven businesses today to manage price performance for streaming, data lakes, analytics, and AI/ML workloads as they grow to petabytes scale. AWS customers are increasingly using Apache Iceberg across their technology stacks as a single source of truth to manage their data. This chalk talk uses production examples to walk you through Iceberg tooling and AWS best practices to drive operational efficiency and query performance optimization for your workloads on Amazon S3.
日本語訳(機械翻訳)
今日のデータ駆動型ビジネスにとって、ストリーミング、データレイク、アナリティクス、AI/MLのワークロードがペタバイト規模に成長するにつれて、その価格パフォーマンスを管理することは非常に重要です。AWSのお客様は、データを管理するための単一の真実のソースとして、テクノロジースタック全体でApache Icebergを使用することが増えています。このチョークトークでは、Amazon S3上のワークロードの運用効率とクエリパフォーマンスの最適化を推進するためのIcebergツールとAWSのベストプラクティスについて、実例を用いて説明します。
Speakers
- Oleg Lvovitch, Principa, Principal Engineer, AWS
- Anupriti Warade, Senior Product Manager-Technical, AWS
セッション内容
アジェンダです
DWHを利用しているユーザーの課題とIcebergの利点、Icebergが使用できるAWSサービスの例が共有されました。
続いてIceberg形式のテーブルについて説明がありました。
Iceberg初心者にはありがたい内容でした。
続くデモでは、AthenaからIceberg形式のテーブルを作成し、S3に作成されたマニフェストファイルの中身やデータファイルを参加者と一緒に確認するといったことを行いました。
また、Icebergテーブルのメンテナンスやコンパクションについてデモを交えながら説明がありました。
以下のブログで行っている確認をデモで実施していた感じです。
そして最後、発表されたばかりのS3 Tablesの紹介がありました。
独自でIceberg形式のテーブルを管理するよりも多くのメリットがありそうです。
- 最大で3倍のクエリパフォーマンス、最大で10倍のTPS性能
- 簡単なアクセスコントロール
- メンテナンスの自動化
おわりに
以上、Chalk Talkの「Improve data lake workload performance with Apache Iceberg on Amazon S3」のセッションレポートでした。
S3 Tableについては公式のブログもご参照ください。
新しく発表されたAmazon S3メタデータ(Preview)についてはこちらのブログを御覧ください。